logo

Présentation

En Italie du Nord, la territorialisation – qui débute à l’âge du Bronze – se renforce au cours de l’âge du Fer et s’accompagne d’une accélération du processus d’ethnicisation. C’est ce processus, entendu comme le produit de ‘l’organisation sociale de la différence culturelle(Barth 1969), que le projet ITINERIS (coord. Veronica Cicolani) entend documenter à travers une étude des sous-systèmes techniques (chaîne opératoire, matières premières), culturels (notion de style Sackett (1989), Sackett (1977)) et spatiaux des objets métalliques en circulation

Description des Work packages (WP), task (T.) et des acteurs institutionnels

Ce document R + Markdown cherche à illustrer de manière interactive le plan de gestion des données du projet ANR ITINERIS, notamment en utilisant les services d’infrastructuration des données d’Huma-Num dans un contexte d’ouverture et de référencement de l’information scientifique (Science Ouverte)

Plan de gestion des données

Le plan de gestion des données (PGD, data management plan) suivra les recommandations européennes H2020 pour la science ouverte et pilotera la gestion ouverte des données de recherche.

Plan de gestion des données du projet ITINERIS

Collecte

L’étude portera sur quelques 1,200 objets en alliage de cuivre provenant de 6 sites archéologiques. Parallèlement, une révision des corpus déjà publiés sera opérée.

Partie nord-occidentale d’Italie avec la position des sites sélectionnées, corpus en cours de révision

Description

Les données seront décrites selon les ISO-standards, les thésaurus déjà existants (e.g., DublinCore) et par de nouveaux thésaurus.

Iso-standards (ISO) qui seront utilisés dans les différents work packages (WP)
WP ISO description
WP1 1302:2002 Production d’une documentation technique
3274:1996 Caractéristiques nominales des instruments à contact (palpeur)
4287:1997 Terminologie, description et paramètres
4288:1996 Règles et procédures de mesures
5436-1:2000 Étalonnage matériel et logiciel
5436-2:2012
12085:1996 Étalonnage motifs
13565-1:1996 Étalonnage des ICs, surfaces ayant des propriétés fonctionnelles différentes suivant les niveaux
13565-2:1996
13565-3:1998
ISO/TC 26 Cuivre et alliages de cuivre
17034:2016 Analyses isotopiques
10810:2019 Spectroscopie Raman
Spectroscopie des rayon X
WP2 14739-1:2014l Gestion de la documentation 3D (Lasergrammétrie, RTI)
WP3 80000-2:2019 Modélisation mathématique
19115:2003 Information géographique

Stockage

Le stockage des données se fera sur une base de données FileMaker en ligne (WP 3 T.5A) hébergée par le laboratoire AOROC et référencée sur la grille Huma-Num et librement accessible en ligne. La TGIR Huma-Num héberge déjà de nombreux projets numériques développés par le laboratoire AOROC. Cette structure de données va permettre l’implémentation d’une saisie mult-utilisateurs, la pérennité du stockage et faciliter l’interfaçage avec des données de recherche déjà implémentées par la coordinatrice du projet (VC), le gazetteer Archeolocalis, la base de données BaseFer. La base de données sera rendue interopérable avec les langages de programmation R (package RODBC) et Python (pyodbc). Pour faciliter l’intéropérabilité des données (linked open data, LOD), les données et leur métadonnées seront retranscrites à la volée par des routines informatiques aux selon les formats internationaux:

Base de données
description format
Représenter/publier les données JSON-LD
RDF
Décrire les données à partir de vocabulaires XML-TEI
Historique des données VoID
DCAT
PROV-O
Recherche de données SPARQL

Pour les besoins de cette page web, les données sont stockées sur GitHub:

https://raw.githubusercontent.com/zoometh/golasecca/main/LOD

Analyses

Les analyses se ditribuent entre les différents axes de recherche, ou work packages (WP), et compteront aussi bien les analyses physico-chimiques que la modélisation géostatistique. Pour la représentation des ensembles structurés, l’analyse de réseaux (network analysis) est un formalisme largement utilisé, en même temps qu’une heuristique visuelle (graph drawing). Les données utilisées dans l’analyse de réseaux sont basiquement des noeuds (vertices) et des liens (edges). Dans le projet ITINERIS, cette modélisation elle sera employée à différentes échelle et selon différents paradigmes. Nous nous en étions servis pour modéliser les réseaux d’échanges du Golassecca (Cicolani and Huet 2019):

Exemple d'analyse de réseaux et de graphes interactifs, extrait de la page web [Golasecca-net](https://zoometh.github.io/golasecca/#Golasecca_IIAB-IIIA1)Exemple d'analyse de réseaux et de graphes interactifs, extrait de la page web [Golasecca-net](https://zoometh.github.io/golasecca/#Golasecca_IIAB-IIIA1)

Exemple d’analyse de réseaux et de graphes interactifs, extrait de la page web Golasecca-net

Durant l’âge du Fer, les sociétés d’Italie du Nord s’organisent en territoires au centre desquels, des ‘sites princiers’ et des emporions jouent le rôle de central places. Ces centres organisent les réseaux d’échanges à longue distance. Spatialement, ils montrent ont une distribution spatiale régulière qu’il est – par exemple – possible de modéliser, avec une carte Leaflet interactive, l’aire d’influence de ces sites avec des polygones de Thiessen (fonction deldir et de lignes qui connectent ces sites quand les territoires théoriques sont contigüs (fonction gTouches)

Polygones de Thiessen (i.e. cellules de Voronoi) des ‘sites princiers’ (source) de la fin du Premier Âge du Fer dans le nord de l’aire d’étude (domaine nord alpin) d’après: Fernández-Götz and Krausse (2013), Brun and Chaume (2013), modifié

Les connections de proche en proche entre ces sites centraux, peuvent être mise sous la forme de graphes et de réseaux de transports. Comme par exemple en calculant entre chacun de ces sites, les plus courts chemins théoriques (fonction shortestPath)

Plus courts chemins théoriques entre les ‘sites princiers’ (source) de la fin du Premier Âge du Fer dans le nord de l’aire d’étude (domaine nord alpin) d’après: Fernández-Götz and Krausse (2013), Brun and Chaume (2013), modifié

Archivage

L’archivage sur le temps long se fera avec le CINES (v. Infrastructure Huma-Num)

Publication

Le projet prévoit de publier:

  • du code informatique sous la forme de fonctions ou de packages
  • des jeux de données (datasets)
  • des documents de travail (working papers) avec du versionnage de DOI
  • des documents de données (data papers)
  • des articles scientifiques

Ces documents et jeux de données seront seront référencés sur le site web du projet ITINERIS, publiés sur des plateformes en libre accès (e.g. GitLab, OpenEdition) et associés à des identifiants d’objets numériques (digital object identifiers, DOI) prenant en compte leur versionnage (DOI versioning) afin de garantir leur FAIRisation.

Infrastructuration des données

L’infrastructure du TGIR Huma-Num – l’instance française de la Digital Research Infrastructure for the Arts and Humanities (DARIAH-EU) – offre une grille de services facilitant l’inscription des projets de recherche dans le contexte de la Science ouverte. La cohérence de la gestion des données scientifiques du projet sera assurée par l’utilisation de ces services:

  • développement intégré dans le conteneur d’application logicielles GitLab
  • échange des documents de travail (working papers, versionnage) sur le ShareDocs
  • etc.
Grille des services de la TGIR Huma-Num
service logo
Signaler
Traiter
Exposer
Archiver
Stocker

Science ouverte

La science ouverte consiste à rendre accessible autant que possible et fermé autant que nécessaire(cnrs, n.d.). Basée sur l’ouverture de données (open data) décrites sémantiquement et des métadonnées (metadata), l’Open Science repose sur les principes du FAIR

Facile à trouver
Accessible
Interopérable
Réutilisable

Facile à trouver

Repose sur l’attribution d’identifiants uniques (DOI) et un système standardisé de citations, comme les boutons “Citer” ou les liens qui affichent des les principaux formats de références biblographiques (.bib, .tex, etc.). Comme pour citer la page web Golasecca-net et l’article ayant servis à développer cette page:

https://raw.githubusercontent.com/zoometh/golasecca/main/bibliographie.bib

Accessible

L’ouverture des données (open data) est à la base de la Science Ouverte, ces données seront accompagnées de métadonnées et recevront une certification

Intéroperable

Les données seront intégrées à d’autres. Elles doivent donc être exprimées dans des formats ouverts et internationaux. C’est par exemple le cas du format WKT qui est le format standard, human-readable, pour la représentation des données géographiques.

Pour les données historico-culturelles (sites archéologiques, contexte stratigraphiques, typologie des objets, etc.), lors de la conception de la base de données, nous chercherons à aligner les champs et les valeurs sur le Cultural Heritage Information-Conceptual Reference Model (CIDOC-CRM, ISO 21127. Le CIDOC-CRM est un iso-standard pour la description et l’organisation de l’information liée au patrimoine archéologique et architectural

Réusable

La provenance, le nom du laboratoire, les méthodes et les équipements utilisés seront sourcés et sous license.

Exemples de licences utilisées dans le projet
licences description
ODbL bases de données ouvertes

Les données ouvertes seront connectées au web sémantique (linked open data, LOD). Ces données décrites comme des triples structurés sous la forme: sujet-prédicat-objet, au format Resource Description Framework (RDF) et enregistrées selon la syntaxe JavaScript Object Notation for Linked Data (JSON-LD).

Par exemple pour le site d’Uto-Kulm (n° 247) durant la phase Golasecca IIAB-IIIA1:

site <- "Uto-Kulm"
per <- "GIIAB_IIIA1_530_450"
urlfile<-'https://raw.github.com/zoometh/golasecca/master/LOD/data/data_temp.csv'
df <- read.csv(urlfile)
df.select <- df[df[ , "Lieu_dit"] == site & df[ , per] > 0, ]
df.per.count <- df.select %>% count(Objet)
df.per.count$Site <- site
kable(df.per.count,"html",
      row.names = F,
      caption = "Nombre des différents types d'objets pour 
le site d'Uto-Kulm au Golasecca IIAB-IIIA1") %>%
  collapse_rows() %>%
  kable_styling(full_width = FALSE,
                position = "center",
                font_size=12)
Nombre des différents types d’objets pour le site d’Uto-Kulm au Golasecca IIAB-IIIA1
Objet n Site
Ceramique grecque 2 Uto-Kulm
Parure Golasecca 1

Où:

  • Site = sujet
  • Objet = prédicat
  • n = objet

Le langage de programmation R, offre différents packages (rdflib, jsonld, etc.) permettant de formater les données de l’étude sous la forme de LOD:

rdf <- rdf()
for (i in 1:nrow(df.per.count)){
  rdf %>% 
    rdf_add(subject = paste0(base, df.per.count[i,"Site"]), 
            predicate = paste0(base, df.per.count[i,"Objet"]), 
            object = df.per.count[i,"n"]) 
}
rdf
## Total of 2 triples, stored in hashes
## -------------------------------
## <https://github.com/zoometh/golasecca/tree/main/Uto-Kulm> <https://github.com/zoometh/golasecca/tree/main/Ceramique grecque> "2"^^<http://www.w3.org/2001/XMLSchema#integer> .
## <https://github.com/zoometh/golasecca/tree/main/Uto-Kulm> <https://github.com/zoometh/golasecca/tree/main/Parure Golasecca> "1"^^<http://www.w3.org/2001/XMLSchema#integer> .

Le triple peut être sérialisé sous le format JSON-LD, actuellement le plus populaire pour décrire des données web et qui sera bientôt intégré par Google.

json.name <- paste0(getwd(), site, "_", per,".json")
rdf_serialize(rdf, json.name, "jsonld") 

Ce fichier peut ensuite être déposé sur GitHub :

https://raw.githubusercontent.com/zoometh/golasecca/main/LOD/Uto-Kulm_GIIAB_IIIA1.json

References

Barth, Fredrik. 1969. Ethnic Groups and Boundaries: The Social Organization of Culture Difference. Boston: Little Brown.
Brun, Patrice, and Bruno Chaume. 2013. “Une éphémère Tentative d’urbanisation En Europe Centre-Occidentale Durant Les VI e Et v e Siècles Av. J.-c.?” Bulletin de La Société Préhistorique Française, 319–49.
Cicolani, Veronica, and Thomas Huet. 2019. Essai de modelisation des echanges et des reseaux de circulation dans les Alpes centrales au premier age du Fer.” In La conquête de la montagne : des premières occupations humaines à l’anthropisation du milieu. Éditions du Comité des travaux historiques et scientifiques. https://doi.org/10.4000/books.cths.7827.
cnrs. n.d. “Science Ouverte.” https://www.science-ouverte.cnrs.fr/.
Fernández-Götz, Manuel, and Dirk Krausse. 2013. “Rethinking Early Iron Age Urbanisation in Central Europe: The Heuneburg Site and Its Archaeological Environment.” Antiquity 87 (336): 473–87.
Sackett, James A. 1977. “The Meaning of Style in Archaeology: A General Model.” American Antiquity 42 (3): 369–80. https://doi.org/10.2307/279062.
———. 1989. “Style and Ethnicity in Archaeology: The Case for Isochrestism.” In The Uses of Style in Archaeology, edited by Hastorf Christine, Ann Conkey, and Margaret Wright, 32–43. Cambridge University Press.